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集 值 信息 系统 的 属性 约 简 * 


Bee, 朱 朝 晖 ? 
(1- 长 安 大 学 理学 院 数学 与 信息 科学 系 ， 西 安 710064; 2 深圳 卓 成 混凝土 模块 研究 所 ， 深 圳 518000) 


i 要 : 属性 约 简 是 粗粮 集 理 论 研究 中 的 重要 内 容 之 一 。 本 文 主要 研究 集 值 信息 系统 的 属性 约 简 问题 。 在 
集 值 信息 系统 中 基于 拟 序 关 系 引 入 了 信息 量 的 概念 ， 给 出 了 属性 特征 的 判定 方法 ， 以 及 信息 量 与 
属性 约 简 之 间 的 关系 。 根 据 信息 量 定义 了 属性 重要 性 ， 研 究 了 属性 重要 性 与 属性 约 简 之 间 的 关 
系 。 进 而 得 到 了 基于 信息 量 和 属性 重要 性 的 属性 约 简 算 法 ， 给 出 了 该 算法 的 时 间 复 杂 度 。 通 过 实 
例 说 明 ， 该 算法 是 有 效 的 。 
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粗糙 集 理论 是 由 波兰 数学 家 Pawlak 于 1982 提 出 的 一 种 数据 分 析 理 论 趾 。 该 理论 由 于 能 分 析 
处 理 不 精确 、 不 协调 和 不 完备 等 信息 引起 人 工 智 能 工作 者 的 广泛 关注 ， 并 被 成 功 应 用 在 机 器 学 
习 与 知识 发 现 、 数 据 挖 气 、 决 策 支持 与 分 析 、 过 程控 制 、 模 式 识别 等 领域 癌 。 

属性 约 简 作为 粗糙 集 理论 的 重要 研究 内 容 之 一 上 3 引 ， 是 在 保持 分 类 能 力 不 变 的 前 提 下 删除 其 
中 的 宛 余 属性 。 由 于 属性 约 简 并 不 唯一 ， 人 们 希望 找 出 所 有 约 简 或 最 小 约 简 。 但 寻找 最 小 约 简 
是 NP-hard 问题 向。 解决 这 类 问题 的 一 般 方法 是 采用 启发 式 搜索 方法 求 出 最 优 或 次 优 约 简 回 。 
苗 夺 谦 等 人 癌 提出 了 基于 互信 息 的 知识 相对 约 简 的 启发 式 算法 。 王 国 倪 等 人 提出 了 基于 条 件 信 
息 灶 的 决策 表 约 简 算 法 中。 梁 吉 业 等 人 图 提出 了 基于 信息 量 的 属性 约 简 算法 。 黄 兵 等 人 中 给 出 
了 不 完备 信息 系统 的 属性 约 简 算法 。 而 对 不 确定 或 缺 省 信息 ， 则 需 研究 不 完备 信息 系统 或 集 值 
信息 系统 。 

本 文 在 集 值 信息 系统 中 建立 了 拟 序 关 系 ， 由 此 引入 了 信息 量 的 概念 ， 通 过 信息 量 研究 了 属 
性 特征 ， 以 及 信息 量 与 约 简 之 间 的 关系 。 进 而 给 出 了 属性 重要 性 的 定义 ， 研 究 了 属性 重要 性 与 
约 简 之 间 的 关系 。 并 基于 信息 量 和 属性 重要 性 给 出 了 获取 和 集 值 信息 系统 的 属性 约 简 的 算法 。 通 
过 实例 验证 了 该 算法 的 有 效 性 。 


2 集 值 信息 系统 


定义 1 P (U, A, F) ARR RRS, HPU = {zi1,z2,… En) 是非 空 有 限 对 象 集合 ， 称 
为 论 域 ; 4 = {a1, a2z,… ,am} 是非 空 有 限 属性 集合 ; F = {fa: Vac A} 是 U 到 A 上 的 函数 集 
合 ， 其 中 fo : U > Po(Va) (V a € 4) 称 为 信息 函数 ， 太 是 属性 a 的 值 域 ，Po( 公 ) 是 到 上 非 空 
子 集 的 全 体 。 
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定义 2 设 (U4, 下 为 集 值 信息 系统 。 对 任意 的 BC A， 定 义 U 上 的 二 元 关系 
RS = {(z,y) €UxU: fa(z) € falu), Va € B}, 


称 R 为 集 值 信息 系统 (U, A, F) 上 的 拟 序 关 系 。 
显然 ，RS 是 自 反 、 传 递 的 ， 但 不 是 对 称 的 ， 故 不 再 是 等 价 关 系 。 记 


R§ (1) = {y EU: (a, y) € RB}, 


KRE) 为 包含 z 的 信息 粒 ， 则 全 体 信息 粒 U/RS = {RS5(z) : z e U} 构 成 U 的 一 个 覆盖 。 

性 质 1 设 (Z4, 刀 为 集 值 信息 系统 ，RS 为 ( 忆 4, 本 上 的 拟 序 关 系 ， 则 对 任意 的 B C 
A, zyVEU， 有 

1) #BCA, NR C RHE R= N Rē: RẸ (z) C RS(z) 且 RS(z) = N RS(z); 

a€ a€B 

2) 若 ye REx), 则 RE(y) S RS(z) 且 RS(z) = U{RS(Y) : y € RG(a)}: 

3) Rgl) = RS(z) SVaeB, f(z)= f(y). 

定义 3 设 (U, A, F) 是 集 值 信息 系统 。 对 任意 的 a EA ERI {a =R MKA aA A 
中 是 不 必要 的 ;否则 ， 称 ae 在 4 中 是 必要 的 。 若 对 每 个 ce 4 在 4 中 都 是 必要 的 ， 则 称 4 是 独 
SEAN, AR, Be A 是 相依 的 。 

定义 4 设 (U, 4, 也 ) 是 集 值 信息 系统 ，A 中 所 有 必要 属性 组 成 的 集合 称 为 属性 集 4 的 核 ， 
WHE Core(4)。 

定义 5 设 (U, 4, 下 ) 是 集 值 信息 系统 ，B EC 4。 如 果 RS = RS， 则 称 B 为 集 值 信息 系 
A (U, A, FMR: 车 BB 为 (U4, 下) 的 协调 集 ， 且 对 任意 的 a € B, Rg qg # RD 
FK BHA (U, A, F) 的 约 简 。 

DE, Core(A)=N{D: DCA, D 是 (U,A, F) 的 约 简 }。 


3 ” 集 值 信息 系统 上 的 信息 量 及 属性 重要 性 


定义 6 W(U,A,F) 是 集 值 信息 系统 ，B Cc 4， 且 DVR = {R$(zi) : zi Ee U}， 则 B 的 信 
息 量 定义 为 


poe 
1(B)=1- Tad 》 |R5(2:)|, 
i=l 


EP |X| RARA X 的 基数 。 

性 质 2 W (U, A, F) 是 集 值 信息 系统 ， 则 对 任意 的 BC A, I(B) < T(4)。 

定理 1( 协 调集 的 判定 定理 ) 设 (U, 4, F) 是 集 值 信息 系统 ， 则 对 任意 的 BC A4，B 是 (U, 4， 
F) tri © I(A) = I(B). 

定理 2( 属 性 特征 的 判定 方法 ) (U, A, F) 是 集 值 信息 系统 ， 则 对 任意 的 ae A a 是 必要 
AI <> I(A — {a}) < I(A). 

证 明 设 a 是 必要 的 ， 则 RS_to) 关 RK$。 由 性 质 1 知 R% C R$_(s}。 由 定义 6 即 得 1(4 一 
{a}) < I(4)。 若 I(4 一 {a}) < I(4)， 由 定义 6 及 性 质 1 知 ， 存 在 x; € UIE 


RG tay (zi) # RG (zi). 
Ma 为 必要 属性 。 
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MRS K(U,A, F) RRGARAR. WHER BCA, BÆI Vace B, I(B- 
{a}) < I(B). 

定理 3 (U, A, F) 是 集 值 信息 系统 ， 则 Core(A) = {a€ A: Ia-ta}la) < I(A)}- 

证 明 a € Core(4)  A— {a} 是 不 协调 的 仿 RG ja} Z R3 © R3 C Riqa} 全 7T4) > 
I(A — {ah)。 

定理 4 (U, A, F) 是 集 值 信息 系统 ， 则 对 任意 的 BC 4， 妃 是 约 简 今 1(B)=1(A), BX 
任意 的 a€ B, I(B 一 {a}) < I(A). 

定义 7 设 (U, 4, 下) 是 集 值 信息 系统 ，a e A。 属性 a 在 A 中 的 重要 性 定义 为 


SigA-{a} (0) = I(A) TE I(A = {a}). 
特别 地 ， 当 4 = {a}, A Sigla) 表示 Sigp(a)， 则 Sig(a) = I({a}) HP U/RẸ =U, I(Ø)=0. 
性 质 4 设 (U, 4, 下 ) 是 集 值 信息 系统 ， 则 对 任意 的 a e 4， 有 


1 
0 < SigA- rala) < 1- —. 
A~{a}( |U] 


定理 5 设 (U, 4h, 下 ) 是 集 值 信息 系统 ， 则 对 任意 的 a e A, 


定理 6 W(U,A, F) 是 集 值 信息 系统 ， 则 对 任意 的 B C A, BÆAW e 1(B) = (A), H 
对 任意 的 a € B, Sigg- {a} (a) > 0。 
定理 7 设 (U, 4, F) 是 集 值 信息 系统 ， 则 


Core(A) = {a € A:Siga_ta}(0) > 0}. 


4 ”基于 信息 量 的 集 值 信息 系统 的 属性 约 简 算 法 


定义 8 设 (U, A, 也) 是 集 值 信息 系统 ，B C 4。 对 任意 属性 a € 4 - B，a 关 于 属性 集 B 的 
重要 性 定义 为 
Sigg (a) = Sigputa}_{a}(0) = I(B U {a}) ~ I(B). 


下 面 给 出 基于 属性 重要 性 的 集 值 信息 系统 的 属性 约 简 算法 : 

输入 :” 集 值 信息 系统 (U, A, 三 )。 

输出 : 集 值 信息 系统 的 核 与 约 简 。 

步骤 1 计算 集 值 信息 系统 中 知识 4 的 信息 量 (A); 

步骤 2 Core(4) :一 0。 计算 每 个 属性 a 在 A 中 的 重要 性 SigA_ {a} (a). "车 Siga_{a}(a) > 
0， 则 Core(A) := Core(A) U {fa}。 最 后 得 到 的 Core(A) 为 属性 集 4 的 核 ; 

DRS 计算 核 Core(4) 的 信息 量 。 若 IT(Core(4)) = 1(4)， 则 输出 核 Core(4) 即 为 集 值 信 
息 系统 的 属性 约 简 (此 时 Core(4) X (U, A, F) 最 小 约 简 ); 否则 ，(I(Core(4)) < I(4)， 执 行 步 
RR A, 

步骤 4 令 C = Core(4)， 对 属性 集 4 一 C 重 复 执行 : 

1) 对 每 个 属性 ae 4 - C， 计 算 属性 重要 性 Sigc(a); 

2) ”选择 属性 a 使 其 满足 


. ES . 了 
Sigc(a) = max _Sigc(a), 
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&C:=Cu{a};: 
3) #1(C) = T(4)， 输 出 C (Itt C X (U, A, F) 的 一 个 属性 约 简 );， 否 则 ， 转 1)。 
下 面 分 析 上 述 算法 的 时 间 复 杂 性 : 
计算 核 Core(4) 共 需 计算 |4| 次 Sig4_to}(a)。 
计算 属性 约 简 需 要 计算 Sigo(a) 的 次 数 最 多 为 


|A| + (JA| — 1) +-+-+1=|Al(|A] + 1)/2 = O(|A]?). 


为 了 计算 Siga_{a} (a) (计算 Sigc(a) 与 计算 Sig 4_ {a} (a) 的 时 间 复 杂 性 相 同 )， 需要 进行 下 列 
计算 : 

1) 计算 |4| 个 覆盖 。 类 似 文献 [10] 可 知 ， 计 算 每 个 覆盖 的 时 间 复 杂 性 为 O(|U|?)， 因 此 计 
算 |4| 个 覆盖 的 时 间 复 杂 性 为 O(|A| x |U?) 

2) 为 了 计算 U/R#% 和 U/R$_(。}， 需 要 计算 |4| -1 和 |4|-2 次 交 。 计 算 一 次 交 的 时 间 复 杂 
性 为 O(IU|?)。 因 此 计算 这 些 交 的 时 间 复 杂 性 为 


(|Aj -1+14|-2) x O(|U]?) = O(IAI| x |U}?). 


因此 ， 计 算 一 次 Sig4_{fal la) 的 时 间 复 杂 性 为 O(|4| x U|?) 
HAAA I(A — a) 的 时 间 复 杂 性 为 O(|A| x |U]?). 
故 整个 算法 的 时 间 复 杂 性 为 


(|A| + HI(4 + 1)/2) x O(|A] x |U|?) = O(|AP x |U|?). 
例 1 表 1 给 出 了 集 值 信息 系统 (U, 4, F) HP 


U = {71, £2, £3, 74, 7T5, Te}, A= {a1,A2, a3, a4}. 


Kl: 集 值 信息 系统 (U, A, F) 
















{1,2} 


z2 {1,2,3} {1,2} {1,2} {1,2} 
£3 {1} {1} {1,2} {1} 
z4 {1,2} {1} {1,2,3} {1} 
T5 {1,2,3} {1,2,3} {1,2} {1,2,3} 


{1,2,3} {1,2} {1,2,3} 





下 面 利用 属性 约 简 算法 给 出 集 值 信息 系统 的 属性 约 简 : 
步骤 1 拟 序 关系 RE = {(z,y) €U xU : falz) € fa(y)}， 则 全 体 信息 粒 为 


R§ (a1) = {21,22,25,26}, RŞ(z2) = {x2,25,26}, RŞ(z3) = {x2, 23, 24,28, 26}, 


RG (24) = {4,26}, RG(2s) = {zs}, RS(ze) = {a6}. 
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故 4 的 信息 量 
ec He we 5 
I(A) =1- Ug = |R&(a:)| = a 
步骤 2 由 定义 7 求 得 
: 5 ‘ 
Sig ,_sa,}(@1) = 0, Sig4_sa,}(@2) = 0, SigA—{as} (03) = 36° Sig 4—{a,}(@4) = 0. 


故 由 定理 7 知 ，Core(4) = {a3}. 
步骤 3 I(Core(A)) = I({a3}) = H, HI(Core(A)) A 1(A), HATH 4. 
步骤 4 令 
C = Core(A) = {a3}. 


对 A 一 C= {ai,a2,a4} 计算 各 个 属性 关于 属性 C 的 重要 性 : 
1) Sigc(al) = $, Sigc(a2) = į, Sigc(04) = je 
2) ”由 于 


. , , 1 
Sigo (a2) = Sigc (a4) = max Sigc(a) = 7, 


RC, = CU {az}, C2 = CU {a4}. 
3) 对 任意 的 ;= 1,2, I(C:) = 3, HI(C;) = (A). 
故 核 Core(A) = {as}, Ci = {a2,a3}, Co = {a3, a4} 均 为 集 值 信息 系统 的 约 简 。 


5 ”结论 


粗糙 集 理论 是 一 种 处 理 不 精确 和 不 完全 知识 的 工具 ， 而 属性 约 简 则 是 粗糙 集 理论 研究 的 核 
心 问题 之 一 。 属 性 约 简 的 过 程 即 是 寻找 保持 分 类 能 力 不 变 的 最 小 属性 子 集 。 为 此 人 们 提出 了 基 
于 信息 粹 、 信 息 量 等 的 属性 约 简 算 法 。 本 文 在 集 值 信息 系统 中 基于 拟 序 关系 提出 了 信息 量 的 概 
念 ， 给 出 了 必要 属性 的 属性 特征 刻画 ， 以 及 信息 量 与 属性 约 简 的 关系 。 进 一 步 基 于 信息 量 给 出 
了 集 值 信息 系统 的 属性 重要 性 ， 提 出 了 集 值 信息 系统 属性 约 简 的 算法 。 通 过 实例 验证 了 该 算法 
的 有 效 性 。 
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Attribute Reductions in Set-valued Information Systems 
MA Jian-min', ZHU Chao-hui* 


(1- Department of Mathematics and Information Sciences, Faculty of Science, 
Chang’an University, Xi’an 710064; 2- Research Institute of Shenzhen 
ZhuoCheng Concrete Module, Shenzhen 518000) 


Abstract: Attribute reduction is one of important topics in the rough set theory. This paper mainly 
studies attribute reduction in set-valued information systems. Firstly, the information quality based 
on a preorder relation is defined in a set-valued information system. The judgment approach of at- 
tribute characterizations and relationships between the information quality and attribute reduction is 
discussed. On the basis of information quality, the significance of attributes is then introduced. And the 
relationship between the significance of attributes and attribute reduction is also investigated. Based 
on the information quality and significance of attributes, a heuristic algorithm for obtaining attribute 
reductions is presented, and the time complexity of the algorithm is then analyzed. By an example, 
we show this algorithm is effective. 

Keywords: set-valued information system; preorder relation; information quality; significance of at- 
tribute; attribute reduction 
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